Documentación de Visemas y SSML
Este documento describe los conceptos clave de visemas y SSML (Speech Synthesis Markup Language), así como el alfabeto fonético utilizado en SSML, ejemplos de tablas de vocales y consonantes, enlaces a recursos y detalles de facturación de caracteres.
1. Visemas
1.1. Definición
Un visema es la representación visual de un fonema en el lenguaje hablado: la forma y posición de los labios, dientes y mandíbula cuando se articula un sonido. Son fundamentales para la animación de labios (“lip-sync”) y la síntesis de vídeo facial.
1.2. Relación con Fonemas
- Fonema: unidad mínima de sonido que distingue significado en una lengua.
- Un visema puede corresponder a varios fonemas similares (por ejemplo, /p/, /b/, /m/ suelen compartir un mismo visema bilabial).
- La asignación de fonemas a visemas varía según cada idioma y dialecto.
2. SSML (Speech Synthesis Markup Language)
2.1. ¿Qué es SSML?
SSML es un lenguaje basado en XML diseñado para controlar y ajustar la síntesis de voz. Permite especificar:
- Tono (
<prosody pitch="...">
) - Velocidad (
<prosody rate="...">
) - Volumen (
<prosody volume="...">
) - Pronunciación (
<phoneme alphabet="ipa" ph="...">…</phoneme>
) - Pausas (
<break time="..."/>
)
2.2. Estructura básica
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis">
<voice name="Microsoft Server Speech Text to Speech Voice (es-MX, LauraNeural)">
Bienvenido a SSML.
</voice>
</speak>
3. Alfabeto Fonético en SSML
SSML soporta alfabetos fonéticos como IPA (International Phonetic Alphabet) para controlar la pronunciación exacta de palabras.
3.1. Vocales (Español)
Letra | Visema ID | Ejemplo 1 | Ejemplo 2 | Ejemplo 3 |
---|---|---|---|---|
a | 2 | amenaza | maro | está |
ɔ | 3 | odre | oferto | micro |
ò | 1 | estan | seré | aigua |
e | 4 | éxito | perfeta | seré |
ɛ | 4 | ecosistema | increcto | haver |
i | 6 | itinerante | sitinante | zombio |
u | 7 | universitario | candidatures | crono |
Nota: Los IDs de visema son arbitrarios y pueden variar según la herramienta o el estándar de animación facial.
3.2. Consonantes
Letra | Visema ID | Ejemplo 1 | Ejemplo 2 | Ejemplo 3 |
---|---|---|---|---|
b | 21 | babado | blavo | β |
t͡ʃ | 19,16 | matcha | txucs | graffiti |
ð | 17 | conduian | navidad | The Sun |
f | 18 | facilidad | efecto | grafo |
g | 20 | gracia | alugación | aigua |
ʒ | 16 | gebra | brasil | alianza |
ɣ | 20 | aigua | parga | laugar |
d | 19 | dado | directo | ducción |
k | 20 | comportar | carro | corazón |
l | 14 | laberinto | logro | leacción |
ʎ | 14 | calli | mello | milora |
m | 21 | macarón | mesa | micro |
n | 19 | necesario | sanitario | algar |
ŋ | 20 | alongar | trangio | inglés |
ɲ | 19 | cañada | españa | muñeca |
ɾ | 19 | peru | caro | barra |
r | 13 | perro | torre | mártir |
θ | 19 | zaparo | tiqueta | ecos |
Tip: Usa
<phoneme alphabet="ipa" ph="…">…</phoneme>
para forzar pronunciaciones específicas en SSML.
5. Listado Típico de 12 Visemas
A continuación se muestra un ejemplo de 12 visemas comunes, con su correspondiente agrupación de fonemas en notación ARPABET:
Visema | Fonemas (ARPABET) |
---|---|
AI / AY | AI, AY |
EY / E / EH | EY, E, EH |
IY / O / OW | IY, O, OW |
AO / U / UW | AO, U, UW |
UH / M / B / P | UH, M, B, P |
F / V | F, V |
T / D | T, D, TD |
TH / CH | TH, CH |
SH / ZH | SH, ZH |
JH / L / R / W | JH, L, R, W |
S | S |
Z | Z |
Nota:
- La agrupación exacta de fonemas por visema puede variar según el estándar o la herramienta de animación facial.
- Cada visema representa una forma de boca/es cara que agrupa varios fonemas con movimientos articulatorios similares.
6. Recursos
- Galería de voces de Microsoft https://speech.microsoft.com/portal/voicegallery
- Documentación y precios de Azure TTS Consulta la documentación oficial de Azure Cognitive Services Text-to-Speech para detalles de facturación y características.
7. Facturación de Caracteres en Text-to-Speech
Cuando utilices la característica de texto a voz, se facturará por cada carácter convertido, incluyendo:
- El texto dentro del cuerpo SSML de la solicitud.
- Las marcas SSML en el cuerpo de la solicitud (excepto
<speak>
y<voice>
). - Letras, puntuación, espacios, tabulaciones, marcas y cualquier carácter de espacio en blanco.
- Cada punto de código definido en Unicode.
Ejemplo de cálculo: Un documento SSML con 1 000 caracteres de texto y 200 caracteres de etiquetas SSML se facturará como 1 200 caracteres.